We explore the usage of the Levenberg-Marquardt (LM) algorithm for regression (non-linear least squares) and classification (generalized Gauss-Newton methods) tasks in neural networks. We compare the performance of the LM method with other popular first-order algorithms such as SGD and Adam, as well as other second-order algorithms such as L-BFGS , Hessian-Free and KFAC. We further speed up the LM method by using adaptive momentum, learning rate line search, and uphill step acceptance.
translated by 谷歌翻译
We address the general task of structured commonsense reasoning: given a natural language input, the goal is to generate a graph such as an event -- or a reasoning-graph. To employ large language models (LMs) for this task, existing approaches ``serialize'' the output graph as a flat list of nodes and edges. Although feasible, these serialized graphs strongly deviate from the natural language corpora that LMs were pre-trained on, hindering LMs from generating them correctly. In this paper, we show that when we instead frame structured commonsense reasoning tasks as code generation tasks, pre-trained LMs of code are better structured commonsense reasoners than LMs of natural language, even when the downstream task does not involve source code at all. We demonstrate our approach across three diverse structured commonsense reasoning tasks. In all these natural language tasks, we show that using our approach, a code generation LM (CODEX) outperforms natural-LMs that are fine-tuned on the target task (e.g., T5) and other strong LMs such as GPT-3 in the few-shot setting.
translated by 谷歌翻译
最近,有大量的工作致力于研究马尔可夫链随机梯度方法(MC-SGMS),这些方法主要集中于他们解决最小化问题的收敛分析。在本文中,我们通过统计学习理论框架中的算法稳定性镜头对MC-SGM进行了全面的MC-SGMS分析。对于经验风险最小化(ERM)问题,我们通过引入实用的论点稳定性来建立平稳和非平滑案例的最佳人口风险界限。对于最小值问题,我们建立了在平均参数稳定性和概括误差之间的定量连接,该误差扩展了均匀稳定性\ cite {lei2021Staritibal}的现有结果。我们进一步开发了预期和高概率的凸孔问题问题的第一个几乎最佳的收敛速率,这与我们的稳定性结果相结合,表明可以在平滑和非平滑案例中达到最佳的概括界限。据我们所知,这是对梯度从马尔可夫过程采样时对SGM的首次概括分析。
translated by 谷歌翻译
近年来,骑车服务的越来越重要表明,有必要研究骑车需求的关键决定因素。然而,关于骑乘需求决定因素的非线性效应和空间异质性,知之甚少。这项研究采用了可解释的基于基础学习的分析框架,以确定塑造骑车需求并在各种空间环境(机场,市区和社区)探索其非线性关联的关键因素。我们在芝加哥使用骑车旅行数据进行实证分析。结果表明,建筑环境的重要性在空间环境中各不相同,并且在预测对机场旅行的乘车需求方面共同贡献了最大的重要性。此外,建筑环境对骑车需求的非线性影响显示出强烈的空间变化。骑车需求通常对市区旅行的建筑环境变化最有反应,然后进行邻里旅行和机场旅行。这些发现提供了运输专业人员的细微见解,以管理骑车服务。
translated by 谷歌翻译
在本文中,通过引入低噪声条件,我们研究了在随机凸出优化(SCO)的环境中,差异私有随机梯度下降(SGD)算法的隐私和效用(概括)表现。对于点心学习,我们建立了订单$ \ Mathcal {o} \ big(\ frac {\ sqrt {\ sqrt {d \ log(1/\ delta)}} {n \ epsilon} \ big)和$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \ \ \ \\ \ \ \ \ \ big(\ frac {\ frac {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt {\ sqrt { Mathcal {o} \ big({n^{ - \ frac {1+ \ alpha} {2}}}}}}+\ frac {\ sqrt {d \ log(1/\ delta)}}} )$(\ epsilon,\ delta)$ - 差异化私有SGD算法,分别是较高的和$ \ alpha $ -h \'分别较旧的光滑损失,其中$ n $是样本尺寸,$ d $是维度。对于成对学习,受\ cite {lei2020sharper,lei2021Generalization}的启发,我们提出了一种基于梯度扰动的简单私人SGD算法,该算法满足$(\ epsilon,\ delta)$ - 差异性限制,并开发出了新颖的私密性,并且算法。特别是,我们证明我们的算法可以实现多余的风险利率$ \ MATHCAL {o} \ big(\ frac {1} {\ sqrt {n}}}+\ frac {\ frac {\ sqrt { delta)}}} {n \ epsilon} \ big)$带有梯度复杂性$ \ mathcal {o}(n)$和$ \ mathcal {o} \ big(n^{\ frac {\ frac {2- \ alpha} {1+ alpha} {1+ \ alpha}}}+n \ big)$,用于强烈平滑和$ \ alpha $ -h \'olde R平滑损失。此外,在低噪声环境中建立了更快的学习率,以实现平滑和非平滑损失。据我们所知,这是第一次实用分析,它提供了超过$ \ Mathcal {o} \ big(\ frac {1} {\ sqrt {\ sqrt {n}}+\ frac {\ sqrt {d sqrt {d \ sqrt {d \ sqrt { log(1/\ delta)}}} {n \ epsilon} \ big)$用于隐私提供成对学习。
translated by 谷歌翻译
我们提出了PlanarRecon-从摆姿势的单眼视频中对3D平面进行全球连贯检测和重建的新型框架。与以前的作品从单个图像中检测到2D的平面不同,PlanarRecon逐步检测每个视频片段中的3D平面,该片段由一组关键帧组成,由一组关键帧组成,使用神经网络的场景体积表示。基于学习的跟踪和融合模块旨在合并以前片段的平面以形成连贯的全球平面重建。这种设计使PlanarRecon可以在每个片段中的多个视图中整合观察结果,并在不同的信息中整合了时间信息,从而使场景抽象的准确且相干地重建具有低聚合物的几何形状。实验表明,所提出的方法在实时时可以在扫描仪数据集上实现最先进的性能。
translated by 谷歌翻译
自动描绘器官风险(OAR)和总肿瘤体积(GTV)对于放射治疗计划具有重要意义。然而,在有限的像素(体素)向内注释下,学习强大的描绘的强大表示是一个具有挑战性的任务。在像素级别的对比学习可以通过从未标记数据学习密集的表示来缓解对注释的依赖性。最近在该方向上的研究设计了特征图上的各种对比损失,以产生地图中每个像素的鉴别特征。然而,同一地图中的像素不可避免地共享语义,其实际上可能影响同一地图中的像素的辨别,并导致与其他地图中的像素相比。为了解决这些问题,我们提出了分离的区域级对比学习计划,即Separeg,其核心是将每个图像分离成区域并分别对每个区域进行编码。具体地,Separeg包括两个组件:结构感知图像分离(SIS)模块和器官和室内间蒸馏(IID)模块。 SIS被提出在图像集上运行以重建在结构信息的指导下设置的区域。将通过典型的对比损失交叉区域从此学习机关间代表。另一方面,提出了IID来解决设定的区域中的数量不平衡,因为通过利用器官表示,微小器官可以产生较少的区域。我们进行了广泛的实验,以评估公共数据集和两个私有数据集的提出模型。实验结果表明了拟议模型的有效性,始终如一地实现比最先进的方法更好的性能。代码可在https://github.com/jcwang123/separate_cl上获得。
translated by 谷歌翻译
最近,使用批评者分配表示截断的分量批评者(TQC),显示在Mujoco连续控制基准套件的所有环境中提供最先进的渐近培训表现。此外,使用高更新到数据比和目标随机化的随机集合双Q学习(REDQ)达到了具有基于最先进的模型的方法竞争的高样本效率。在本文中,我们提出了一种新的无模型算法,具有集合(AQE)的激进Q学习,这提高了REDQ的样品效率性能和TQC的渐近性能,从而提供了整体最先进的性能在培训的所有阶段。此外,AQE非常简单,要求批评者的分布表示也不是目标随机化。
translated by 谷歌翻译
我们介绍了一种简单而有效的方法,可以使用本地3D深度描述符(L3DS)同时定位和映射解决循环闭合检测。 L3DS正在采用深度学习算法从数据从数据中学到的点云提取的斑块的紧凑型表示。通过在通过其估计的相对姿势向循环候选点云登记之后计算对应于相互最近邻接描述符的点之间的度量误差,提出了一种用于循环检测的新颖重叠度量。这种新方法使我们能够在小重叠的情况下精确地检测环并估计六个自由度。我们将基于L3D的循环闭合方法与最近的LIDAR数据的方法进行比较,实现最先进的环路闭合检测精度。此外,我们嵌入了我们在最近的基于边缘的SLAM系统中的循环闭合方法,并对现实世界RGBD-TUM和合成ICL数据集进行了评估。与其原始环路闭合策略相比,我们的方法能够实现更好的本地化准确性。
translated by 谷歌翻译
神经原理模型对于NLP任务的可解释预测很受欢迎。在其中,选择器提取了输入文本的片段,称为理由,并将这些段传递给分类器进行预测。由于基本原理是分类器可访问的唯一信息,因此可以将其定义为解释。这样的表征无条件正确吗?在本文中,我们与相反的论点说,哲学观点和经验证据都表明,理由模型也许比预期的不太理性和可解释。我们呼吁对这些模型进行更严格和全面的评估,以确保确实实现了可解释性的所需属性。该代码可以在https://github.com/yimingz89/neural-rationale-analysis中找到。
translated by 谷歌翻译